基于自然语言理解的中文地址匹配算法

2023-04-02 10:17| 来源: 网络整理| 查看: 265

推理匹配是指基于语义理解，实现推理和位置定位的过程，推理判断地址要素之间的空间关系。从人工智能的角度定义，推理是指由已知判断出另一种判断。由于同一位置的多种不同表述，不用自然语言理解角度处理，是无法实现正确匹配的。

中文地址的主要组成部分是由区域地名(区划区域、功能区域、自然片区)和局部点组成，描述的地理实体之间是包含、相邻、邻接、方位、距离关系。推理基于地址库建立决策树，根据不同的地址要素选择相应的动作。在地址描述中，经常遇到冗余描述，比如地址要素之间还可能存在等价关系。所以推理过程包含了多种关系的判断与处理，所以推理的动作主要有集合查找、关系确认、相对位置计算、插值计算。集合查找的目的是判断地址要素是否在地址库中有记录。关系确认是确定当前地址要素与前一个地址要素之间是空间关系还是等价关系。当地址是使用参考位置来表达时，则需要以参考地点为基准计算偏移位置，偏移位置的精度有参考点以及偏移位置描述的精度确定。当描述的地址点在地址库中不存在，而地址点是用门牌号表示，可以使用插值计算用于解决两类地址点位置计算，一类是门牌号是采用距离编码方法，另一类是模糊位置计算指定使用插值方法确定。

推理的过程采用启发式策略，知识(地址要素关系)存储采用隐式存储。采用隐式图搜索方式，求解问题。为了减少搜索的规模采用逆向推理策略。智能匹配的核心是基于知识推理，在知识空间内寻找最优解。知识库为地址库。知识推理的过程的最终结果得到一条从根节点到叶子节点的路径，知识推理过程采用深度优先策略。由于在地址库中记录了从子节点到父节点的指针(父节点标识)，所以深度优先搜索的复杂度显著减少，只需采用递归寻找以当前子节点为起点，寻找以父节点为终点的局部路径，如果路径存在，则说明从父节点转移到当前节点是成功的，则可以继续做深度搜索;如果路径不存在则需要做异常处理。

推理技术是模拟人类在寻址行为，因此地址匹配的过程类似与邮件邮寄，处理按照有大到小的过程，每一次匹配完成了路径查找。匹配的成功与否是由从起点到终点的路径决定。推理匹配过程：

步骤 1：以地址解析的标准化后的结果和匹配的最终目标 (楼房、门牌号、道路等)作为输入条件，判断地址的有效性。如果地址有效则转入步骤 2，否则转入步骤 9。步骤 2：判断地址要素中是否存在方位描述。如果不存在则转入步骤 3，否则转入步骤 7。步骤 3：对地址的类型判断，如果是普通名称类地址则转入步骤 4，否则转入步骤 5。步骤 4：基于全文检索实现匹配定位，转入步骤 9。步骤 5：利用有限状态机，实现要素关系推导，计算空间位置，转入步骤 6。步骤 6：定位计算，转入步骤 9。步骤 7：对地址划分，匹配无方位部分参照地址，转入步骤 8。步骤 8：通过方位和距离估算目标位置。转入步骤 9。步骤 9：对匹配的结果登记。

【本文地址】

公司简介

联系我们